Web数据集成中有价值事件识别研究

Web数据集成中有价值事件识别研究

作者:师大云端图书馆 时间:2015-08-12 分类:期刊论文 喜欢:2526
师大云端图书馆

【摘要】随着互联网技术的飞速发展,Web成为巨大的信息源,拥有海量数据,同时Web具有开放性、交互性、便捷性的特点,已成为人们获取信息的重要平台。如何准确、有效地从Web中获取所需信息,对信息进一步分析和挖掘,对诸如市场情报分析、商业智能等分析型应用尤为重要。相对于传统数据集成中结构化数据,Web网页包含大量无结构数据,其中在特定时间、地点发生,由特定参与者参加的活动语句称为事件。识别网页中有价值事件,即识别出分散在大量网页中的事件信息并关联事件的价值数据,为市场情报分析等应用提供数据支持。Web网页的新闻报道中蕴含大量事件,为用户提供及时、广泛的信息,但报道这些事件的描述语句陈述角度各异,表达方式随意,难以识别是否指向同一事件。网页报道中对同一事件的不同描述语句称为事件表象。在Web大量网页中,通过聚合事件表象发现其共同所指的事件,利用共指同一事件的表象间互相印证和补充的信息对事件有一个较全面、准确的认识。另外,分析事件主题,集成事件主题热度信息,从不同层面识别有价值事件。识别出的有价值事件,数据较丰富和准确,而且集成了事件主题等不同层面的价值信息,可以为市场情报分析等应用提供支持,也是进一步进行数据分析和挖掘的基础。Web有价值事件识别已经成为当前的热点研究问题之一,由于Web事件具有海量、无结构、描述随意和联系丰富等特点,有价值事件识别不仅进行Web事件发现,还要集成事件价值信息,研究中仍然存在以下问题有待解决。(1)同一事件网络中有不同的新闻报道,报道该事件的事件表象语句因描述角度不同,存在较大差异。这些事件表象分布于大量网页中,如何从网页中快速、准确的发现重复事件表象,聚合指向同一事件的表象,是需要研究的问题;(2)事件表象从不同角度描述事件,如何充分利用表象间相互印证和补充信息,将形式各异的共指事件表象统一成一条表象,保证合并后的事件表象具有较准确和丰富的数据,是需要解决的问题;(3)Web不同事件可以拥有共同主题,如何准确发现不同事件的主题,分析主题词热度,从主题层面识别有价值事件,是需要解决的问题。本文以Web数据集成为目标,针对Web有价值事件识别中存在的以上问题展开研究,本文的贡献主要包括以下三个方面:(1)提出一种基于维度匹配和共现约束的重复事件表象发现方法。使用事件的8维度表示形式,提出使用网页事件表象共现约束减少事件表象的匹配次数,能够准确、高效的发现网页中重复事件表象。本文提出一种基于维度匹配和共现约束的重复事件表象发现方法,事件使用{agent,activity,object,time,location,cause,purpose,manner}8个维度表示,赋予事件一定的结构特性。针对不同维度内容使用不同匹配器分别匹配,使用扩展证据理论模型综合维度匹配结果。针对大规模网页重复事件表象的发现,提出网页事件表象共现约束,减少网页间事件表象匹配次数。实验结果表明,该方法能够准确聚合大量共指同一事件的重复事件表象,并且减少事件表象间匹配次数,有效降低了网页重复事件表象发现的时间,提高了重复事件表象发现的效率。(2)针对指向同一事件的Web事件表象形式多样,提出一种通过维度内容重组的事件表象统一方法,选取大量重复事件表象中较准确和详细的维度内容并组合到一条事件表象中,反映现实事件。本文提出一种通过维度内容重组的事件表象统一方法,提出使用Markov逻辑网结合多种一阶逻辑规则综合判断,选择事件表象中较完整、准确的维度内容。组合分散在多个事件表象中较准确详细的维度内容到一条事件表象中。实验结果表明,该方法能够有效选择较完整、准确的维度内容,事件表象统一有较高的准确率。(3)针对不同事件可以拥有共同主题,提出一种基于主题特征聚类和扩展LDA模型的事件主题分析方法。分析事件的主题词和主题词热度,从主题层面识别有价值事件。本文提出一种扩展LDA模型DLDA,在LDA模型中集成事件的维度信息,避免在主题无关的事件维度上分配主题概率(如时间、地点等维度内容),选取主题特征维度。根据选取的主题特征维度内容聚类,准确识别事件主题。提出一种主题词合成规则,合成事件的主题词并分析主题词热度。实验结果表明,本文所提方法可以准确地提取事件主题词并分析主题词热度,从主题层面有效识别有价值事件。
【作者】徐元子;
【导师】李庆忠;
【作者基本信息】山东大学,计算机软件与理论,2014,博士
【关键词】重复事件表象;事件表象统一;维度匹配;维度内容重组;主题分析;

【参考文献】
[1]陈琦.新时期加强政府公信力建设研究[D].首都师范大学,中共党史,2013,硕士.
[2]刘晓东.冠状动脉支架术后血小板高反应性患者的优选抗血小板治疗研究[D].大连医科大学,心血管内科学,2012,硕士.
[3]周琦渊.棉花GhTIR1基因对拟南芥突变体的回复及其对棉铃发育的影响[D].西南大学,生物化学与分子生物学,2013,硕士.
[4]李敏.当前高校学生社团管理问题及其对策研究[D].燕山大学,公共管理,2012,硕士.
[5]李林泽.误差补偿恒电位仪[D].天津大学,精密仪器及机械,2013,硕士.
[6]龙云利,徐晖,安玮.马尔可夫链蒙特卡洛重要度采样与多目标跟踪[J].控制与决策,2011,09:1402-1406.
[7]杨燕楠.颜元实学思想探究[D].河北师范大学,中国近现代史,2012,硕士.
[8]刘海波.PMMA/GO纳米复合材料的制备与表征[D].大连工业大学,材料学,2008,硕士.
[9]刘玲.基于混合模式的网络流量优化[D].苏州大学,计算机技术(专业学位),2014,硕士.
[10]邵鹏.矿井排水系统设备及控制改造的研究[D].浙江工业大学,2011.
[11]左一多.多目标优化问题的粒子群算法及其性能分析[D].中国地质大学(北京),计算数学,2013,硕士.
[12]胡晨伟.“觉”与“醒”的别样人生[D].安徽大学,中国哲学,2013,硕士.
[13]李熙东.论行政诉讼第三人[D].吉林大学,宪法学与行政法学,2004,硕士.
[14]张军会.《新实用汉语课本》和《新概念英语》助读系统的比较研究[D].苏州大学,课程与教学论,2013,硕士.
[15]梁燕.特发性血小板减少性紫癜糖皮质激素受体亚型表达及其与激素抵抗的关系[D].大连医科大学,内科学,2012,硕士.
[16]张艳玲.E-cadherin、β-catenin及Oct-4、Sox-2表达与胃癌术后复发转移的关系[D].郑州大学,肿瘤学(专业学位),2013,硕士.
[17]周国逸,闫俊华,申卫军,侯爱敏,余作岳,林永标.马占相思人工林和果园地表径流规律的对比研究[J].植物生态学报,2000,04:451-458.
[18]刘华.刺络泻血治疗肝郁脾虚痰瘀互结型高尿酸血症的临床研究[D].北京中医药大学,针灸推拿学,2013,硕士.
[19]张磊.微胶囊化液晶的制备及其在纺织品印花中的应用研究[D].东华大学,纺织工程(专业学位),2014,硕士.
[20]张凤霞.基于一元算子的模糊蕴涵和余蕴涵及其广义重言式研究[D].山东大学,系统理论,2014,博士.
[21]彭慧芳.小麦核糖体蛋白L5基因的克隆及其在籽粒灌浆与胁迫条件下的表达[D].河南农业大学,作物栽培学与耕作学,2012,硕士.
[22]屈江波.帕瑞昔布钠预注对妇科腹腔镜手术患者医疗舒适度的影响[D].山西医科大学,麻醉学,2013,硕士.
[23]韦克甲.我国少数民族高层次人才培养政策的研究[D].西南大学,成人教育学,2013,硕士.
[24]张文敏.公司治理中的政治性因素研究[D].中南民族大学,法律,2013,硕士.
[25]孙锡龙.等离激元增强拉曼光谱预处理和识别算法的研究[D].厦门大学,计算机技术,2014,硕士.
[26]姜永常.论数字图书馆的知识服务[A].黑龙江省高等教育学会.高等教育改革的理论与实践研究——黑龙江省高等教育学会2002年学术年会交流论文集[C].黑龙江省高等教育学会:,2002:4.
[27]任可心.字源识字法促进幼儿思维发展的实证研究[D].西南大学,教育学原理,2013,硕士.
[28]郭淑文.二维叠前模式识别方法研究[J].石油地球物理勘探,2008,03:313-317+370+23.
[29]刘莹.论违约的精神损害赔偿[D].华东政法学院,民商法,2004,硕士.
[30]徐超.柔性冗余空间机械臂动力学建模与振动抑制研究[D].哈尔滨工业大学,机械工程,2013,硕士.
[31]孙涛.“文革”时期阳泉工人画研究[D].内蒙古大学,美术学,2013,硕士.
[32]陈曦.基于gPROMS的乙烯聚合过程模拟和分析[D].华东理工大学,化学工程,2014,硕士.
[33]徐金枝.头穴足运感区配合电针八髎穴治疗中风后尿失禁60例临床观察[D].黑龙江中医药大学,针灸推拿学(专业学位),2013,硕士.
[34]朱青.三相五环减速器的设计研究[D].哈尔滨工业大学,机械工程,2013,硕士.
[35]孙国伟.多弧离子镀制备TiZrN复合涂层及其性能的研究[D].东北大学,流体机械及工程,2010,硕士.
[36]张洋洋.20世纪90年代以来知青题材小说的嬗变[D].沈阳师范大学,中国现当代文学,2013,硕士.
[37]马彦力.三维GIS大数据量场景快速可视化关键技术研究[D].浙江大学,地质资源与地质工程,2013,硕士.
[38]刘忠宝,王士同.基于光束角思想的最大间隔学习机[J].控制与决策,2012,12:1870-1875+1880.
[39]祁磊.话题检测与跟踪及趋势预测研究[D].杭州电子科技大学,计算机应用技术,2014,硕士.
[40]海军.国外数字图书馆资源简介[J].现代情报,2003,06:63-64.
[41]冀洁茹.枣强县高中美术人文教学研究[D].河北师范大学,美术学,2014,硕士.
[42]王瑞莲.拜登在四川大学演讲的模拟口译实践报告[D].河北大学,英语口译,2014,硕士.
[43]骆钦华,骆英.天平的发展演变[J].中国计量.2003(09)
[44]屈乾沁.云制造模式下汽车制造企业制造资源组合配置研究[D].北京交通大学,2013.
[45]柴陵江.基于侧向速度估计的主动前轮转向与横摆力矩集成控制研究[D].上海理工大学,车辆工程,2011,硕士.
[46]余莉华.去甲斑蝥素诱导人Burkitt淋巴瘤Raji细胞株表达免疫激活物激发外周血单个核细胞杀伤活性[D].南方医科大学,血液内科,2012,硕士.
[47]刘晶晶.民生视角下现代养老社区服务体系研究[D].哈尔滨工业大学,管理科学与工程,2014,硕士.
[48]黄泳鑫.板条激光放大器热效应对传输特性影响研究[D].西南交通大学,通信与信息系统,2012,硕士.
[49]崔晓东.QSAR方法在有机化合物毒性评估中的应用[D].华南理工大学,化学工程,2012,硕士.
[50]周中峰.手绘符号识别算法研究及系统设计实现[D].华中科技大学,计算机应用技术,2013,硕士.

相关推荐
更多